134 research outputs found

    Computational methods for large-scale single-cell RNA-seq and multimodal data

    Get PDF
    Emerging single cell genomics technologies such as single cell RNA-seq (scRNA-seq) and single cell ATAC-seq provide new opportunities for discovery of previously unknown cell types, facilitating the study of biological processes such as tumor progression, and delineating molecular mechanism differences between species. Due to the high dimensionality of the data produced by the technologies, computation and mathematics have been the cornerstone in decoding meaningful information from the data. Computational models have been challenged by the exponential growth of the data thanks to the continuing decrease in sequencing costs and growth of large-scale genomic projects such as the Human Cell Atlas. In addition, recent single-cell technologies have enabled us to measure multiple modalities such as transcriptome, protome, and epigenome in the same cell. This requires us to establish new computational methods which can cope with multiple layers of the data. To address these challenges, the main goal of this thesis was to develop computational methods and mathematical models for analyzing large-scale scRNA-seq and multimodal omics data. In particular, I have focused on fundamental single-cell analysis such as clustering and visualization. The most common task in scRNA-seq data analysis is the identification of cell types. Numerous methods have been proposed for this problem with a current focus on methods for the analysis of large scale scRNA-seq data. I developed Specter, a computational method that utilizes recent algorithmic advances in fast spectral clustering and ensemble learning. Specter achieves a substantial improvement in accuracy over existing methods and identifies rare cell types with high sensitivity. Specter allows us to process a dataset comprising 2 million cells in just 26 minutes. Moreover, the analysis of CITE-seq data, that simultaneously provides gene expression and protein levels, showed that Specter is able to incorporate multimodal omics measurements to resolve subtle transcriptomic differences between subpopulations of cells. We have effectively handled big data for clustering analysis using Specter. The question is how to cope with the big data for other downstream analyses such as trajectory inference and data integration. The most simple scheme is to shrink the data by selecting a subset of cells (the sketch) that best represents the full data set. Therefore I developed an algorithm called Sphetcher that makes use of the thresholding technique to efficiently pick representative cells that evenly cover the transcriptomic space occupied by the original data set. I showed that the sketch computed by Sphetcher constitutes a more accurate presentation of the original transcriptomic landscape than existing methods, which leads to a more balanced composition of cell types and a large fraction of rare cell types in the sketch. Sphetcher bridges the gap between the scalability of computational methods and the volume of the data. Moreover, I demonstrated that Sphetcher can incorporate prior information (e.g. cell labels) to inform the inference of the trajectory of human skeletal muscle myoblast differentiation. The biological processes such as development, differentiation, and cell cycle can be monitored by performing single cell sequencing at different time points, each corresponding to a snapshot of the process. A class of computational methods called trajectory inference aims to reconstruct the developmental trajectories from these snapshots. Trajectory inference (TI) methods such as Monocle, can computationally infer a pseudotime variable which serves as a proxy for developmental time. In order to compare two trajectories inferred by TI methods, we need to align the pseudotime between two trajectories. Current methods for aligning trajectories are based on the concept of dynamic time warping, which is limited to simple linear trajectories. Since complex trajectories are common in developmental processes, I adopted arboreal matchings to compare and align complex trajectories with multiple branch points diverting cells into alternative fates. Arboreal matchings were originally proposed in the context of phylogenetic trees and I theoretically linked them to dynamic time warping. A suite of exact and heuristic algorithms for aligning complex trajectories was implemented in a software Trajan. When aligning single-cell trajectories describing human muscle differentiation and myogenic reprogramming, Trajan automatically identifies the core paths from which we are able to reproduce recently reported barriers to reprogramming. In a perturbation experiment, I showed that Trajan correctly maps identical cells in a global view of trajectories, as opposed to a pairwise application of dynamic time warping. Visualization using dimensionality reduction techniques such as t-SNE and UMAP is a fundamental step in the analysis of high-dimensional data. Visualization has played a pivotal role in discovering the dynamic trends in single cell genomics data. I developed j-SNE and j-UMAP as their generalizations to the joint visualization of multimodal omics data, e.g., CITE-seq data. The approach automatically learns the relative importance of each modality in order to obtain a concise representation of the data. When comparing with the conventional approaches, I demonstrated that j-SNE and j-UMAP produce unified embeddings that better agree with known cell types and that harmonize RNA and protein velocity landscapes

    CẢI TIẾN PHÁT HIỆN TẤN CÔNG SỬ DỤNG VĂN PHẠM NỐI CÂY TRONG LẬP TRÌNH GEN

    Get PDF
    Nowadays, the problem of network security has become urgent and affect the performance of modern computer networks greatly. Detection and prevention of network attacks have been the main topic of many researchers in the World. One of the safety measures for networks is using the intrusion detection systems. However, these measures are costly, ineffective, unreliable and can-not detect new or unknown attacks. Some studies using machine learning technology have been applied in intrusion detection. In our work, we proposed using Genetic Programming (GP) to improve intrusion detection. In the experiments, we used GP and Tree Adjoining Grammar Guided Genetic Programming (TAG3P) on artifical datasets suggested by Pham, Nguyen, and Nguyen (2014). Compared with previous results, we found that GP and TAG3P are more effective in detecting attacks than previous measures.Những năm gần đây vấn đề an ninh mạng đã trở nên cấp thiết và tác động lớn tới hiệu quả hoạt động của các mạng máy tính hiện đại. Phát hiện và ngăn chặn tấn công mạng máy tính đã và đang là chủ điểm nghiên cứu của nhiều nhà nghiên cứu trên thế giới. Một trong những biện pháp bảo đảm an toàn cho các hệ thống mạng là Hệ thống phát hiện xâm nhập trái phép. Tuy nhiên, các biện pháp này tỏ ra không hiệu quả và khá tốn kém, độ tin cậy không cao và không có khả năng phát hiện các tấn công, xâm nhập mới, chưa biết trước dấu hiệu. Kỹ thuật học máy được sử dụng trong việc phát hiện các tấn công, xâm nhập đã khắc phục được các hạn chế trên và ngày càng thể hiện tính ưu việt hơn các phương pháp trước. Trong bài báo này, chúng tôi sử dụng kỹ thuật lập trình Gen (Genetic Programming - GP) để cải thiện chất lượng phát hiện tấn công mạng. Trong thí nghiệm, chúng tôi sử dụng GP chuẩn và kỹ thuật văn phạm nối cây (TAG3P), tiến hành trên bộ dữ liệu nhân tạo do nhóm tác giả Pham, Nguyen, và Nguyen (2014) đề xuất. Trên cơ sở các kết quả thí nghiệm và so sánh với một số kỹ thuật đã được đề xuất trước, chúng tôi nhận thấy ứng dụng GP và TAG3P trong phát hiện tấn công đạt hiệu quả tốt hơn các phương pháp trước đó

    NĂNG SUẤT SINH SẢN CỦA LỢN NÁI GF24 KHI ĐƯỢC PHỐI VỚI CÁC DÒNG ĐỰC GF337, GF280 VÀ GF399 TRONG ĐIỀU KIỆN CHĂN NUÔI CÔNG NGHIỆP Ở MIỀN TRUNG

    Get PDF
    Tóm tắt: Nghiên cứu này đánh giá năng suất sinh sản của lợn nái GF24 khi được phối với 3 dòng đực GF280, GF337 và GF399 trong điều kiện chăn nuôi công nghiệp ở miền Trung. Nghiên cứu đã được tiến hành tại 5 trại chăn nuôi lợn nái công nghiệp ở 5 tỉnh: Quảng Bình, Quảng Trị, Thừa Thiên Huế, Quảng Ngãi và Bình Định; với tổng số 4844 ổ đẻ từ lứa thứ nhất đến lứa tư của lợn nái GF24 được phối tinh với 3 dòng đực nêu trên. Kết quả cho thấy lợn nái GF24 khi được phối giống với 3 dòng đực GF280, GF337 và GF399 có năng suất sinh sản cao và không có sự khác nhau giữa 3 dòng đực. Các chỉ tiêu về số con sơ sinh, số con cai sữa, khối lượng lợn con sơ sinh, khối lượng lợn con cai sữa, số con và khối lượng lợn con cai sữa/nái/năm lần lượt đạt 12,7–13,2 con/ổ; 11,4–11,6 con/ổ; 1,37–1,40 kg/con; 5,89–6,00 kg/con, 28,4–29,1 con/nái/năm và 171,8–172,9 kg/nái/năm. Năng suất sinh sản của lợn nái GF24 từ lứa thứ nhất đến lứa tư đều đạt cao với số lợn con cai sữa/nái/năm dao động từ 28,46 đến 28,94 con và không sai khác giữa các lứa. Lợn nái GF24 và 3 dòng đực GF280, GF337 và GF399 có thể được sử dụng trong điều kiện chăn nuôi lợn công nghiệp ở miền Trung.Từ khóa: lợn nái GF24, các dòng đực GF, năng suất sinh sản, miền Trun

    Đặng Nguyên Cẩn (1867-1923) et ses amis dans le mouvement moderniste

    No full text
    Originaire du village de Lương Điền, dans le district de Thanh Chương, de la province du Nghệ An, Đặng Nguyên Cẩn naquit en 1867, la même année que Phan Bội Châu et dans un district proche. Le village natal de Đặng Nguyên Cẩn est aujourd’hui situé au sud de la province de Nghệ An, à la limite de celle de Hà Tĩnh, mais, au moment de sa naissance, le Hà Tĩnh n’était qu’un des district de la province de Nghệ An. Dans ce contexte géographique, le district de Thanh Chương se trouvait au centre de ..

    Bước đầu tìm hiểu văn hoá ẩm thực Việt Nam. t.I

    No full text
    599 tr. ; 21 cm
    corecore